یادگیری تقویتی بر مبنای دوپامین به عنوان سیگنال مالتی پلکس شده یادگیری در رفتار مبتنی بر پاداش
thesis
- دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - پژوهشکده برق و کامپیوتر
- author سید محمدرضا احمدپناهی
- adviser علی اکبر پویان
- publication year 1393
abstract
پیشرفت های اخیر سعی در جایگزینی روبات به جای انسان کرده است. روبات ها برای جایگزینی نیاز به یادگیری دارند. با تکامل علوم جدید هر روز روبات ها، برای رسیدن به هدف مورد نظر، بدون نیاز به نظارت انسان پیشرفت می کنند. تاکنون تحقیقات زیادی در مورد یادگیری با نظارت و یا بر اساس مدل انجام شده است. پیدا کردن راهی برای رسیدن به کوتاه ترین مسیر موجود از مکان فعلی تا مقصد در محیط ناشناخته مشکل بزرگی در راه یادگیری تقویتی می باشد. ما این اقدام را در این پایان نامه انجام داده ایم. هدف ما در این رساله، یافتن کوتاه ترین مسیر تا مقصد و در عین حال با ارزش ترین مسیر در محیط ناشناخته و در n بعد می باشد. یافتن کوتاه ترین مسیر به معنی وجود یک راه فیزیکی تا هدف نیست. اساس کار، پیاده سازی بر اساس مدل آزاد است تا قابل اجرا در هر فضایی باشد. برای رسیدن به هدف یادگیری، الگوریتم کلونی مورچگان را با یادگیری تقویتی ترکیب کردیم و ماتریس فرومون را ساختیم. با الگو برداری از ترشح دوپامین از کیسه ی کوچکی بنام وزیکول در مغز انسان، پاداش تاخیری را پیاده سازی کردیم و باعث ایجاد همگرایی کران پیش بینی پاداش به سمت پاداش واقعی شدیم.
similar resources
راهکارکنترل مقاوم مبتنی بر یادگیری تقویتی به منظور توانبخشی حرکتی بازوی دست
توانبخشی حرکتی از مباحث مورد توجه محققان است. در اینتحقیق، یک راهکار کنترلی به منظور کنترل حرکت مدلی از بازوی دست با سه مفصل ارائه شده است. در مدل مورد استفاده، اثر فعالسازی همزمان عضلات آگونیست و آنتاگونیست مفصل مچ دست با استفاده از مکانیزم فریز سازی لحاظ شده است. با الهام از عملکرد سیستم اعصاب مرکزی در کسب مهارتهای حرکتی، راهکار کنترلی ارئه شده مبتنی بر یکی از الگوریتم های یادگیری تقویتی توس...
full textمقایسه تأثیر وضعیت طاق باز و دمر بر وضعیت تنفسی نوزادان نارس مبتلا به سندرم دیسترس تنفسی حاد تحت درمان با پروتکل Insure
کچ ی هد پ ی ش مز ی هن ه و فد : ساسا د مردنس رد نامرد ي سفنت سرتس ي ظنت نادازون داح ي سکا لدابت م ي و نژ د ي سکا ي د هدوب نبرک تسا طسوت هک کبس اـه ي ناـمرد ي فلتخم ي هلمجزا لکتورپ INSURE ماجنا م ي دوش ا اذل . ي هعلاطم ن فدهاب اقم ي هس عضو ي ت اه ي ندب ي عضو رب رمد و زاب قاط ي سفنت ت ي هـب لاتـبم سراـن نادازون ردنس د م ي سفنت سرتس ي لکتورپ اب نامرد تحت داح INSURE ماجنا درگ ...
full textپیشبینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی
پیشرفتها در حوزۀ هوش مصنوعی و یادگیری ماشین بهخصوص درزمینۀ محاسبات تکاملی نهتنها ما را قادر به تجزیهوتحلیل مؤثرتر دادهها نموده است، بلکه این امکان را فراهم ساخته که از آنها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقهمند به توسعه و آزمایش مدلهای رفتاری قیمت سهام بودهاند. XCS سامانهای مرکب از الگوریتم ژنتیک و یادگیری ...
full textکنترلکننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت بههمپیوسته شامل SMES
هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترلکنندههای PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیهای حرارتی است. ابتدا تنظیم پارامترهای کنترلکنندههای PID و SMES بهصورت یک مسئله بهینهسازی مدلشده توسط الگوریتم تدریس - یادگیری اصلاحشده حل میشود. سپس عملکرد همزمان آنها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه میگردد. کنتر...
full textطراحی مسیر بهینه برای رباتها بر مبنای یادگیری تقویتی
در دهه اخیر هوشمندسازی ربات ها مورد توجه بسیاری از پژوهشگران در زمینه مهندسی رباتیک و هوش مصنوعی قرار گرفته است. از چالش های پیشروی پژوهشگران در این زمینه ساخت ربات هایی است که دارای قابلیت یادگیری و تطبیق پذیری باشند. هدف از این پایان نامه استفاده از روش های یادگیری تقویتی برای طراحی مسیر بهینه برای ربات ها می باشد. در این مطالعه روشی نو برای یادگیری مسیر بهینه حرکت ربات های بازو از طریق تعامل...
بررسی تأثیر یادگیری مبتنی بر تیم (TBL)، بر یادگیری حسابداری
تقریباً از سال 1984 تا به امروز کمیته و انجمنهای حرفهای حسابداری مانند AAA، IAES و AEC بیان کردهاند که سیستم آموزشی و یادگیری حسابداری نیازمند تغییر است و یکی از مهمترین اشاره آنها مربوط به فقدان یادگیری فعال بوده است. پژوهش حاضر با هدف بررسی تأثیر یادگیری مبتنی بر تیم (TBL) بهعنوان یک تکنیک یادگیری فعال، بر یادگیری دانشجویان حسابداری میانه 1 در مقایسه با روش سنتی (معلم محور)، انجام شده است...
full textMy Resources
document type: thesis
دانشگاه آزاد اسلامی - دانشگاه آزاد اسلامی واحد شاهرود - پژوهشکده برق و کامپیوتر
Keywords
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023